Introduccion

Los datos obtenidos de Kaggle tienen la informacion atmosferica de varios años en australia, datos en los que viene incluida desde la velocidad del viento hasta la temperatura, en total 23 variables recogidas durante varios años en distintas ciudades de australia con las que se obtienen un data set de 140.000 lineas aproximadamente.

Nuestro objetivo será predecir la lluvia del dia siguiente con los datos metereologicos del dia.

Primeros pasos sobre nuestro Dataset

Con este dataset tan grande lo primero que nos planteamos fue centrarnos en dos cosas

-Utilizar una zona concreta de australia, sacada de la variable localizacion, de la cual elegimos 4 ciudades situadas en la costa sureste de Australia y -Utilizar la variable temporal de alguna forma, ya que considerabamos que tenia importancia pero no podiamos usar cada dia del año como un dato diferente, por lo que decidimos obtener apartir de la fecha la estacion del año en la que estaba cada linea,

EDA

## # A tibble: 6 x 25
##   Date       Season Location MinTemp MaxTemp Rainfall Evaporation Sunshine
##   <date>     <chr>  <chr>      <dbl>   <dbl>    <dbl>       <dbl>    <dbl>
## 1 2008-02-01 summer Sydney      19.5    22.4     15.6         6.2      0  
## 2 2008-02-02 summer Sydney      19.5    25.6      6           3.4      2.7
## 3 2008-02-03 summer Sydney      21.6    24.5      6.6         2.4      0.1
## 4 2008-02-04 summer Sydney      20.2    22.8     18.8         2.2      0  
## 5 2008-02-05 summer Sydney      19.7    25.7     77.4        NA        0  
## 6 2008-02-06 summer Sydney      20.2    27.2      1.6         2.6      8.6
## # … with 17 more variables: WindGustDir <chr>, WindGustSpeed <dbl>,
## #   WindDir9am <chr>, WindDir3pm <chr>, WindSpeed9am <dbl>, WindSpeed3pm <dbl>,
## #   Humidity9am <dbl>, Humidity3pm <dbl>, Pressure9am <dbl>, Pressure3pm <dbl>,
## #   Cloud9am <dbl>, Cloud3pm <dbl>, Temp9am <dbl>, Temp3pm <dbl>,
## #   RainToday <chr>, RISK_MM <dbl>, RainTomorrow <chr>
##  Dimensiones dataset train:  9824 25
##  Dimensiones dataset test:  1228 25
##  Dimensiones dataset validación:  1228 25

Variables

Analizamos las variables individuales por separado con distintos gráficos.

Location

Antes que nada, visualizamos las ciudades de Australia elegidas y realizamos un conteo del número de días que han llovido o no en cada una.

Se visualiza ahora los días que han llovido en función de las ciudades y las estaciones del año.

En este dataset hay muchos pares de variables que están fuertemente relacionadas, por ejemplo la temperatura máxima y mínima de un día, o la presión a las 9 de la mañana y la presión a las 3 de la tarde. Por ello, en el análisis individual de variables se estudiarán a la vez por una mejor comprensión.

MinTemp y MaxTemp

## [1] "Temperatura mínima"
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max.    NA's 
##   -8.00    7.90   11.60   11.44   15.50   33.90       9
## [1] "Temperatura máxima"
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max.    NA's 
##    4.10   17.10   21.40   22.01   26.10   45.80       8

La temperatura mínima se podría asimilar a una distribución normal. La temperatura máxima tiene una cola a su derecha en la que aparecen mútliples valores atípicos.

Temp9am y Temp3pm

Las variables Temp9am y Temp3pm son muy parecidas a las temperaturas máximas y mínimas.

## [1] "Temperatura 9am"
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max.    NA's 
##   -1.30   11.70   15.40   15.55   19.30   38.60      24
## [1] "Temperatura 3pm"
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max.    NA's 
##    3.70   15.90   20.00   20.56   24.50   44.70      17

Pressure9am y Pressure3pm

## [1] "Presión 9am"
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max.    NA's 
##   982.3  1013.6  1018.6  1018.5  1023.5  1040.2     201
## [1] "Presión 3pm"
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max.    NA's 
##   985.5  1011.4  1016.3  1016.2  1021.1  1037.8     196

Humidity9am y Humidity3pm

## [1] "Presión 9am"
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max.    NA's 
##    5.00   56.00   68.00   67.22   80.00  100.00      71
## [1] "Presión 3pm"
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max.    NA's 
##    4.00   37.00   48.00   48.95   60.00   99.00      30

Cloud9am y Cloud3pm

## [1] "Nubes 9am"
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max.    NA's 
##   0.000   2.000   6.000   4.694   7.000   9.000    4111
## [1] "Nubes 3pm"
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max.    NA's 
##   0.000   2.000   5.000   4.696   7.000   8.000    4298

WindSpeed9am y WindSpeed3pm

## [1] "Velocidad del viento 9am"
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max.    NA's 
##    0.00    7.00   11.00   13.27   19.00   63.00     207
## [1] "Velocidad del viento 3pm"
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max.    NA's 
##    0.00   13.00   19.00   18.82   24.00   65.00     199

WindDir9am y WindDir3pm

WindGustDir: The direction of the strongest wind gust in the 24 hours to midnight. WindGustSpeed: The speed (km/h) of the strongest wind gust in the 24 hours to midnight.

## [1] "Velocidad más fuerte del viento"
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max.    NA's 
##   11.00   31.00   39.00   40.64   48.00  106.00    1104

Analizamos cuatro variables que no están, a priori, relacionadas por pares.

Risk_mm, Rainfall, Evaporation, Sunshine

RISK_MM

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   0.000   0.000   0.000   2.164   0.800 119.400

Rainfall

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max.    NA's 
##   0.000   0.000   0.000   2.165   0.600 119.400     181

Velocidad de Evaporation

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max.    NA's 
##   0.000   2.400   4.200   5.018   6.800  43.400    2493

Velocidad de Sunshine

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max.    NA's 
##    0.00    4.10    7.90    7.15   10.20   13.90    2667

Análisis multivariables

Analizamos la relación unas variables con otras.

Gracias a este gráfico demostramos que los pares de variables citados sí están fuertemente relacionados. Por ejemplo, la presión a las 9 de la mañana con la presión a las 3 de la tarde: si una aumenta, la otra también. Destacar que también hay correlaciones inversas: cuando aumenta la variable Sunshine, disminuye la Cloud9am.

Analizamos en general la relación entre las variables con las estaciones, la variable de salida (RainTomorrow) y las ciudades. Para ello seleccionamos una de las variables de los pares y el resto. Las variables Rainfall y Risk_mm no las mostramos pues su distribución es difícil de visualizar. Se analizarán posteriormente con las transformaciones.

Relaciones por estaciones.

La Temperatura (MaxTemp, Temp9am), la presión (Pressure3pm) y evaporación muestran un claro comportamiento diferente según la estación.

Relaciones por ciudades.

La temperatura es la variable dónde se puede observar más claramente que tiene un comportamiento diferente para cada ciudad.

Relaciones por RainTomorrow, si llueve o no.

A partir de estas relaciones, indagamos con más detalle las relaciones que parecen interesantes.

Las cuatro variables de temperatura son muy parecidas, como puede observarse en sus distribuciones:

Al estar relacionadas y tener un comportamiento similar posteriormente se estudiará introdudir al modelo interacciones entre éstas.

Veamos cómo se comporta una de ellas según las estaciones y ciudades:

Veamos cómo se comporta la presión según las estaciones y ciudades: